Постмортемы

Дмитрий Масленников, «Т-Банк»

После сбоя

  • Сбор статистики
  • Улучшение систем
  • Материал для обучения

Опросник после сбоя

Сбой затронул рабочий день/сбой начался во время рабочего дня?

  • Да
  • Нет

Триггером сбоя стал релиз?

  • Да
  • Нет

Сбой затронул внешних клиентов?

  • Да
  • Нет
  • Неизвестно

Вызван ли сбой проблемой на базовой инфраструктуре (например, сеть)?

  • Да
  • Нет
  • Неизвестно

Мониторинг и алерты сработали корректно и доработки не требуются?

  • Да
  • Нет
  • Неизвестно

Могли обнаружить проблему на стадии тестирования?

  • Да
  • Нет
  • Неизвестно

Знали о проблеме (баге) до того, как она привела к сбою?

  • Да
  • Нет
  • Неизвестно

Сбой связан с ошибкой в действиях сотрудника при релизе, плановых работах или других работах по обслуживанию продакшна?

  • Да
  • Нет
  • Неизвестно

Сбой связан с программной ошибкой в нашем коде?

  • Да
  • Нет
  • Неизвестно

Сбой связан с естественным увеличением нагрузки?

  • Да
  • Нет
  • Неизвестно

Сбой связан с форс-мажором (отказ IT оборудования, стихийные бедствия, разрушения инфраструктуры)?

  • Да
  • Нет
  • Неизвестно

Сбой: на стороне партнёра, связан с ошибкой в купленном ПО или внешнем вендорском решении?

  • Да
  • Нет
  • Неизвестно

Сбой связан с ошибкой в опенсорсном ПО?

  • Да
  • Нет
  • Неизвестно

Сбой связан с намеренными действиями злоумышленников (взлом, DDOS, другие атаки)?

  • Да
  • Нет
  • Неизвестно

Сбой связан с проблемой коммуникации между сотрудниками: некорректная постановка задачи, ошибочное понимание требуемых действий, некачественная документация или её отсутствие?

  • Да
  • Нет
  • Неизвестно

Откатывали релиз в процессе устранения сбоя?

  • Да
  • Нет
  • Неприменимо

Применялись специальные программные хотфиксы в процессе устранения сбоя?

  • Да
  • Нет

Привлекали больше одной SRE-команды для устранения сбоя?

  • Да
  • Нет

Привлекали разработчиков для устранения сбоя (если есть выделенная команда SRE)?

  • Да
  • Нет
  • Неизвестно

Постмортемы

Краткое содержание

Заботимся о тех, кому некогда читать. Стараемся заинтересовать. Обязательно охватить все аспекты понемногу.

Влияние и последствия

Кто пострадал; что наблюдалось; как отреагировали СМИ и соц-сети; выплачивались ли компенсации и т.п.

Причина и триггер

Все причины и триггер

Обнаружение

Нашли ли по мониторигу (каким именно образом), по сообщениям от пользователей. Вовремя ли сработал мониторинг.

Восстановление

Как восстановили работоспособность системы. Неверные действия. Ворк-эраунды.

Информирование

Все ли хорошо было во взаимодействии во время сбоя? Правильно ли информировали клиентов?

Что мы сделали хорошо?

Выражаем благодарность команде, которая занималась устранением сбоя. Подчёркиваем удачные решения, которые привели к быстрому устранению сбоя и повышению надёжности.

Что мы сделали плохо?

Описываем неудачные решения в процессе работы над устранением сбоя. Анализируем ошибки, внедряем рекомендации по повышению эффективности.

В чем нам повезло/не повезло

Описываем внешние факторы, на которые команда по устранению сбоя не могла повлиять.

Полученные уроки

Что в итоге нового узнали о работе наших систем, о процессах.

План действий

Улучшения технические, улучшения процессов. Включая улучшение документации, разработку служебных тулов, работу с пользователями, PR, выплату компенсаций и т.п.

Хронология

Детальный ход событий с метками времени.

Спасибо!

Вопросы?